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摘要 : [目的 /意义 ] 梳 理 主题 模型 在 公共 政策 文本 中 的 国内 外 应 用 现状 有 助 于 学 习 已 有 研究 成 果 ， 
为 未 来 发 展 提供 理论 与 实践 支持 。[ 方 法 /过 程 ] 采 用 文献 计量 分 析 法 从 时 间 趋 势 、 机 构 分 布 、 期 刊 分 布 
等 角度 进行 量化 分 析 ， 详 细 归 纳 阐 述 应 用 现状 ; 其 次 ， 通 过 关键 词 共 现 识别 国内 外 主要 研究 方向 并 展 
开 对 比分 析 ， 总 结 主题 模型 应 用 在 公共 政策 文本 中 存在 的 问题 并 提出 未 来 展望 。 [ 结果 /结论 ] 公共 政 
策 文 本 分 析 中 主题 模型 的 应 用 整体 呈 增 长 态势 ， 前 景 广阔 。 国 内 外 研究 起 步 时 间 相 当 ， 但 国内 研究 在 研 
究 范 围 、 研 究 深度 、 合 作 方式 、 研 究 方法 等 方面 均 需 提升 。 此 外 ， 未 来 发 展 存在 主题 模型 自身 方法 适用 
性 问题 和 研究 内 容 粒 度 问 题 ， 需 进一步 结合 公共 政策 文本 特征 改进 主题 模型 并 细 化 研究 力度 。 
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Ola 程度 上 帮助 了 解 一 个 国家 的 执政 理念 和 战略 规 
划 ， 如 今 科 学 技术 日 新 月 异 、 国 际 环境 复杂 
公共 政策 是 指 国家 机 关 及 其 他 权威 机 构 在 O TORRAIN. BURRS 
TE as, 各国 政策 颁布 层出不穷 ， 政 策 文本 量 与 日 
一 定时 期 为 实现 特定 目标 所 采取 的 政治 行为 或 i Ana eS NA a 
a ea ee a 俱 增 ， 数 据 密 集 型 科学 的 到 来 给 公共 政策 内 容 
规定 的 行为 准则 ， 它 包括 法 律 、 规 划 、 措 施 、。 a a merce ELUATE 
。 、 i 带 来 了 新 的 挑战 。 高 效 解 读 大 量 公 共 政 策 
方法 、 办 法 、 条 例 、 通 知 、 意 见 等 中 ,具有 价 E E ok 
os 作文 本 内 容 ， 可 以 为 公共 政策 领域 众多 研究 提供 
值 取向 特定 、 主 客体 明确 、 权 威 性 、 强 制 性 等 
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诞生 于 20 世纪 90 年 代 的 文本 挖掘 技术 提 
供 了 大 规模 文本 内 容 分 析 的 新 契机 ， 如 J Li 等 
采用 多 种 文本 挖掘 算法 设计 商业 政策 文档 流程 
分 析 框 架 SL. Prior 等 将 文本 挖掘 与 语义 网 分 
析 相 结合 , 揭示 英国 卫生 政策 构成 基本 要 素 外 ; J. 
Y. Lee 等 运用 文本 挖掘 方法 分 析 人 研究 中 美 在 双 
边贸 易 和 “一 带 一 路 ”等 重大 外 交 政 策 上 的 差 
IE; K. Misook 等 采用 大 数据 分 析 软 件 Textom 
对 韩国 体育 政策 进行 文本 分 析 并 可 视 化 外 。 随 
着 研究 不 断 深入 ， 有 学 者 意识 到 用 传统 的 文本 
挖掘 方法 开展 公共 政策 文本 分 析 得 到 的 结果 可 
解释 性 较 差 ， 无 法 满足 细 粒 度 的 信息 需求 ", 
因此 号 需 适 应 大 数据 文本 且 深 入 语义 层面 的 文 
本 挖掘 技术 改善 这 一 现状 。 

1999 4E, T. Hofmann 首次 提出 主题 
模 型 PLSA (Probabilistic Latent Semantic 
Analysis ) ， 实 现 了 对 文本 中 深层 潜在 语义 进 
行 挖掘 乌 。 主 题 模型 的 诞生 为 主题 挖掘 提供 了 
更 多 的 可 能 性 ， 改 善 了 基于 传统 文献 计量 方法 
( 如 词 频 分 析 、 共 词 分 析 外、 引文 分 析 ho") 
开展 主题 挖掘 时 存在 的 引文 时 清 、 共 词 高 低 词 
频 等 不 足 ， 众 多 研究 人 员 根 据 特 定 任 务 目的 
和 人 情境 对 主题 模型 进行 改进 。 如 目前 适用 性 较 
广 的 隐 含 狄 利克 雷 分 布 模型 (Latent Dirichlet 
Allocation, LDA ) ""， 能 够 捕获 文档 库 中 主 
题 动 态 变 化 的 动态 主题 模型 (Dynamic Topic 
Models, DTM ) ""、 将 作者 信息 融入 主题 模型 
从 而 建立 “作者 - 主题 ”关联 的 作者 主题 模型 
( Author-Topic Model, ATM ) "等 。 目前， 
主题 模型 已 经 广泛 应 用 到 文本 聚 类 "4、 主 题 演 
化 "等 众多 研究 中 。 有 学 者 开始 尝试 使 用 主 
题 模型 挖掘 公共 政策 文本 内 容 ， 这 主要 取决 于 
主题 模型 的 特点 能 够 与 公共 政策 文本 的 特性 相 
吻合 ， 适 用 性 主要 表现 在 以 下 3 个 方面 : OF 
题 模型 适用 于 大 数据 非 结构 化 文本 ， 与 公共 政 
策 大 规模 文本 量 和 非 结构 化 特性 相 吻 合 ; QE 
题 模型 可 以 实现 文本 语义 降 维 ， 挖 掘 潜在 语义 
关系 ， 因 此 适用 于 公共 政策 文本 的 高 维特 性 ; 
@) 主 题 模型 可 以 较为 准确 高 效 地 识别 大 规模 文 


ChinaXiv 合 作 期 刊 


档 中 的 多 主题 ， 这 与 公共 政策 文本 的 多 主题 特 
性 相 契 合 。 可 以 预料 ， 主 题 模型 实现 公共 政策 
文本 内 容 的 梳理 与 解读 是 可 行 的 ， 并 在 未 来 会 
有 更 长 足 的 发 展 。 

主题 模型 在 公共 政策 文本 分 析 中 的 应 用 仍 
处 于 起 步 阶段 ， 目 前 尚未 有 学 者 系统 梳理 相关 
研究 方法 与 研究 内 容 ， 学 界 对 主题 模型 在 公共 
政策 文本 应 用 研究 缺乏 系统 全 面 的 认 知 ， 不 利 
于 学 习 和 借鉴 已 有 的 研究 成 果 和 研究 方法 ， 也 
限制 了 主题 模型 在 公共 政策 文本 分 析 中 的 优化 
与 扩展 应 用 。 基 于 此 ， 笔 者 将 研究 视角 定位 于 
主题 模型 应 用 在 公共 政策 文本 分 析 中 的 相关 人 研 
究 ， 采 用 文献 计量 方法 ,借助 统计 分 析 和 关键 
WM, 重点 关注 主题 模型 是 如 何 应 用 在 公共 
政策 领域 以 及 利用 主题 模型 解读 公共 政策 文本 
后 可 以 解决 公共 政策 领域 的 哪些 问题 ， 总 结 归 
纳 出 国内 外 目前 发 展 存在 的 局 限 性 ， 并 指出 未 
来 可 能 的 发 展 方向 。 


O 主题 模型 在 公共 政策 文本 中 应 用 
量化 分 析 


2.1 数据 来 源 

笔者 选择 Web of Science 核心 合集 和 CNKI 
学 术 期 刊 全 文 数据 库 作为 数据 来 源 数据 库 。 考 
虑 到 主题 模型 目前 有 很 多 改进 和 衍生 算法 ， 如 
PLSA™!, LDA" 等 ， 为 保证 检索 结果 尽 可 能 检 
全 ,笔者 依据 算法 名 称 充分 扩充 检索 词 。 同 时 ， 
因 部 分 缩写 存在 一 定 卜 义 ， 人 工 对 全 部 检索 结 
果 依 据 题目 和 摘要 进行 盘 选 。 此 外 ， 笔 者 重点 
关注 的 是 将 主题 模型 应 用 在 公共 政策 文本 中 的 
研究 ， 而 不 是 应 用 在 公共 政策 领域 中 的 研究 ， 
因此 最 终 筛 选 结果 中 所 有 文献 的 主题 建 模 对 象 
应 为 各 类 公共 政策 文本 ， 而 非 论文 、 专 利 等 科学 
文献 。 通 过 人 工 筛 选 得 知 ， 检 索 结果 中 大 部 分 文 
献 主要 内 容 集中 在 使 用 主题 模型 分 析 某 一 研究 领 
域 研 究 进展 并 附带 提出 该 领域 相关 政策 建议 ， 此 
类 人 研究 虽 在 主题 中 也 涉及 公共 政策 ， 但 均 以 期 刊 
论文 或 专利 文本 为 主题 建 模 对 象 ， 与 本 文 关注 的 
公共 政策 文本 不 符 ， 因 此 也 被 吻 除 ， 这 也 是 最 终 
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人 工 筛选 结果 与 检索 结果 数量 差异 较 大 的 原因 。 
具体 检索 过 程 及 检索 结果 见 表 1。 需 说 明 的 是 ， 
本 文 的 检索 式 只 能 保证 检索 到 在 主题 中 明确 提出 
“policy” 或 “政策 ”的 目标 文献 ， 然 而 有 些 公 
共 政 策 文本 如 通知 、 意 见 、 措 施 等 并 不 会 带 有 
“policy” 或 “政策 ”字眼 ， 本 文 的 检索 过 程 在 


表 1 检索 过 程 及 检索 结果 


数据 类 型 检索 日 期 来 源 数据 库 
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一 定 程度 上 有 可 能 会 忽略 掉 部 分 目标 文献 。 笔 者 
认为 ， 即 使 对 公共 政策 文本 进行 主题 建 模 的 目 
标 文献 研究 对 象 为 “通知 ” “措施 ” 
等 ， 但 绝 大 多 数学 者 会 在 主题 中 提 及 “政策 ”或 
“policy”， 因 此 还 是 采用 了 表 1 中 的 检索 式 ， 
并 结合 人 工 筛选 保障 检索 结果 的 准确 性 。 


et S ” 
意见 


检索 式 检索 ”人工 筛 选 最 


结果 ”终结 
TS=( “topic model*” OR LDA OR “Latent Dirichlet 
Web of Allocation” OR PLSA OR PLSIOR “probabilistic latent 157 
国际 数据 2020.6.1 Science 核心 semantic analysis” OR “Probabilistic Latent Semantic 简 23 篇 


合集 Indexing” )AND ( Policy OR Policies ) AND 文献 类 型 : 


( Article ) 不 限时 间 跨 度 
主题 ( 精确 ) = ( 主题 模型 OR 主题 建 模 OR LDA 模 


CNKI 学 术 


国内 数据 ”2020.6.1 ”期 刊 全 文 数 


型 OR 潜在 狄 利克 雷 分 布 OR 隐 含 狄 利 克 雷 分 布 OR TE 
在 狄 利克 雷 分 配 OR 隐 含 狄 利 克 雷 分 配 OR PLSA OR 152 
ype PLSI OR 概率 潜在 语义 索引 OR 概率 隐 含 语义 索引 OR 篇 


19 篇 


概率 潜在 语义 分 析 OR 概率 隐 含 语义 分 析 ) AND ( 政 


策 ) 不 限时 间 跨 度 


2.2 时 间 趋 势 分 析 

科研 文献 数量 随时 间 的 变化 可 以 在 一 定 程 
度 上 反映 相关 研究 发 展 状 况 "|, HF 2020 年 
非 完 整 自 然 年 ， 因 此 不 考虑 在 内 ， 时 间 分 布 统 
计 结 果 见 图 1， 虽然 在 1999 年 主题 模型 就 已 诞 


一 4 一 国际 数据 一 一 国内 数据 


ER /HBIDSEE YS 
CN 


生 ， 但 直到 2015 年 才 有 学 者 尝试 将 主题 模型 
应 用 在 公共 政策 文本 中 。 整 体 来 看 目前 研究 数 
量 不 多 ， 国 际 与 国内 研究 起 步 时 间 相 当 ， 近 几 
年 均 呈 明显 上 升 趋势 。 从 增长 速度 来 看 ， 国 际 
数据 增长 略 快 于 国内 数据 增长 。 


2015 2016 


R| 


2017 2018 2019 
年 份 
1 主题 模型 在 公共 政策 文本 中 应 用 的 发 文 时 间 分 布 
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2.3 发 文 机 构 分 布 

使 用 全 计数 法 统计 发 文 机 构 结 果 见 图 2 和 
图 3, 从 中 可 以 看 出 国内 外 研究 机 构 均 较 为 分 散 。 
此 外 ， 通 过 对 作者 合 若 现象 统计 分 析 发 现 ， 国 际 
上 发 表 的 23 篇 相关 文献 中 ， 有 11 篇 为 多 机 构 合 
作 ， 而 国内 发 表 的 19 篇 相关 文献 中 ， 只 有 3 篇 
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阿姆斯特丹 自由 大 学 
图 2 国际 发 文 机 构 


2.4 期 刊 分 布 

发 文 期 刊 统计 结果 见 表 2。 从 发 文 期 刊 领域 
来 看 ， 发 现 国际 数据 中 发 文 期 刊 主要 集中 在 政 
策 研究 领 域 的 期 刊 ， 而 国内 数据 主要 集中 在 情 
报 学 领域 的 期 刊 。 此 外 ， 笔 者 还 发 现 ， 国 内 学 
者 在 国际 上 发 表 的 相关 论文 更 倾向 于 领域 特色 
非常 明显 的 专业 期 刊 。 


O 主题 模型 在 公共 政策 文本 中 研究 
方法 分 析 

众多 学 者 根据 研究 目标 和 研究 文本 实际 
情况 对 主题 模型 PLSA 进行 改进 ， 逐 渐 诈 和 后 了 
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为 多 机 构 合 作 ， 因 此 可 以 得 出 国际 研究 更 倾向 于 
多 个 机 构 之 间 共 同 合作 ， 而 国内 更 倾向 于 单一 机 
构 内 的 学 者 展开 合作 。 从 国际 数据 中 的 机 构 国 别 
来 看 ， 美 国 发 表 的 文献 居多 ， 占 所 有 国际 数据 的 
1/3 以 上 。 从 机 构 形 式 来 看 ， 国 际 数据 和 国内 数 
据 均 是 以 高 校 发 文 为 主 ， 研 究 所 发 文 为 辅 。 


国内 数据 
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LDA、DTM、ATM、TOT 等 一 系列 适应 不 同 研 
究 需 求 的 主题 模型 。 鉴 于 公共 政策 文本 存在 非 
结构 化 、 高 维 、 多 主题 等 特性 ， 为 进一步 分 析 
目前 主题 模型 具体 方法 在 公共 政策 这 一 特殊 文 
本 中 的 应 用 ， 笔者 根据 检索 结果 对 国内 和 国际 
数据 中 主题 模型 具体 使 用 算法 进行 统计 ， 结 果 
见 图 4 和 图 5。 

通过 对 比 两 图 可 知 ， 国 内 在 公共 政策 文本 
分 析 中 主题 模型 使 用 较为 单一 ， 绝 大 部 分 学 者 
采用 目前 最 主流 的 LDA 主题 建 模 方法 开展 相关 
人 研究， 只 有 极 少数 学 者 根据 实际 研究 情况 采用 
考虑 了 时 间 因 素 的 主题 时 间 模 型 (TOT ) 8, 
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表 2 主题 模型 在 公共 政策 文本 中 应 用 的 发 文 期 刊 
国际 期 刊 名 称 国内 期 刊 名 称 

POLITICAL ANALYSIS 2 现代 情报 2 
JOURNAL OF RURAL STUDIES 1 数据 分 析 与 知识 发 现 2 
AMERICAN JOURNAL OF POLITICAL SCIENCE 1 情报 杂志 2 
APPLIED ECONOMICS LETTERS 1 情报 探索 2 
CLIMATE POLICY 1 信息 资源 管理 学 报 1 
ECOLOGICAL INFORMATICS 1 FIRB A 1 
ENERGY RESEARCH & SOCIAL SCIENCE 1 情报 理论 与 实践 1 
ENVIRONMENTAL DEVELOPMENT 1 情报 科学 1 
EUROPEAN JOURNAL OF POLITICAL ECONOMY 1 兰州 大 学 学 报 ( 社 会 科学 版 ) 1 
GEORGE WASHINGTON LAW REVIEW 1 PINKER CARB EIQ 1 
GOVERNANCE-AN INTERNATIONAL JOURNAL OF 1 福州 大 学 学 报 〈 哲 学 社会 科学 1 

POLICY ADMINISTRATION AND INSTITUTIONS 版 ) 

GOVERNMENT INFORMATION QUARTERLY 1 


INTERNATIONAL JOURNAL OF BEHAVIORAL NUTRI- 
TION AND PHYSICAL ACTIVITY 


INTERNATIONAL PUBLIC MANAGEMENT JOURNAL 1 

JOURNAL OF CLEANER PRODUCTION 1 

NORTH AMERICAN JOURNAL OF ECONOMICS AND 1 
FINANCE 

PARTY POLITICS 1 

POLICY SCIENCES 1 

POLITICAL SCIENCE RESEARCH AND METHODS 1 

POLITICS AND GOVERNANCE 1 

TECHNOLOGICAL FORECASTING AND SOCIAL 1 
CHANGE 


TRANSPORT POLICY 1 


Ey 作者 主题 模型 
计算 主题 模型 ( ATM ) 
( CTM) JA35. 


4.35% 


图 4 主题 模型 在 公共 政策 文本 分 析 中 研究 方法 分 布 图 5 主题 模型 在 公共 政策 文本 分 析 中 研究 方法 分 布 
( 国内 数据 ) ( 国际 数据 ) 
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国际 上 公共 政策 文本 分 析 中 主题 模型 方法 使 
用 更 加 多 样 化 ， 虽 然 LDA 依然 占据 绝对 优 
势 ， 但 有 部 分 学 者 积极 尝试 使 用 结构 主题 模 
型 (STM) 、 计 算 主 题 模型 (CTM) 、 作 者 
主题 模型 (ATM ) LA SESE Sit FEE I sR 
解 的 动态 主题 模型 ， 此 外 ， 还 有 学 者 使 用 了 
Leximancer ( 一 种 文本 分 析 软 件 ) 开展 政策 文 
AR ERIE, FAP TRE PA EPR EH J 
EUR BE TE SC ERA P=, 


O 主题 模型 在 公共 政策 文本 中 研究 
内 容 分 析 


为 更 加 直观 分 析 主 题 模 型 在 公共 政策 文本 
中 的 应 用 方向 ， 笔 者 借助 Vosviewer 软件 采用 
关键 词 构建 共 现 网 络 ， 并 采用 归纳 研究 法 进 一 
步 总 结 。 
4.1 国内 研究 内 容 分 析 

首先 将 国内 数据 导入 Vosviewer 分 析 软 件 ， 
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对 关键 词 进行 手工 筛选 后 ， 最 小 聚 类 大 小 设 为 
30， 得 到 国内 主题 模型 在 公共 政策 文本 中 应 用 
方向 ， 见 图 6。 

红色 关键 词 代表 方向 1， 根据 “专题 数据 
E” “TET AT AAS” “TCE SOAS SB” “LDA” “Ee 
策 结 构 ” 等 关键 词 ， 结 合 国 内 相关 文献 具体 内 
容 ， 将 该 主题 研究 方向 总 结 为 公共 政策 文本 组 
织 与 管理 研究 。 李 少 博 e RH LDA 主题 模型 
对 科技 政策 文本 进行 建 模 ， 构 建 基于 主题 的 科 
技 政策 分 析 系 统 ; Eff PRA LDA 模型 对 
科技 政策 检索 用 户 的 信息 与 检索 记录 进行 主题 
建 模 , 开发 科技 政策 领域 个 性 化 语义 检索 系统 ; 
张涛 等 Ol 通过 引入 政策 词 表 和 对 LDA 模型 进 
行 加 权 的 方式 ， 提 出 一 种 新 型 政策 文本 聚 类 方 
YE; 刘 雨 农 等 外 采用 LDA 主题 模型 对 政策 文 
本 开展 主题 分 类 ， 并 结合 词 频 统计 归 类 ， 提 出 
人 文 社 科 专 题 数 据 库 主 题 选 择 框架 ,为 人 文 社 
科 专 题 数据 库 建 设 提供 支持 。 


Bree 
i tm | : 保障 以 扶 名 HBX 
gL Yq /六 roe Ee Rp | ity 4 
KES uea f “0 = Ju 
BRR ‘agen a HBX Pee: Bo eee 
Gp Se FE ae 
公 a, a a 政敌 化 
hed ii 
ji GERR ite = AN 
CES x ABS ay Ki AI b tagpi J 
a ita Ase i Oat 
Pe al BURR eh 
ease 
农村 PKG 
ad LS TSE 
BRK 


9 6 主题 模型 在 公 


绿色 关键 词 代表 方向 2，“ 政 策 文本 ”“ 主 
题 时 间 模 型 ”“ 主 题 变迁 ”“lda”“ 量 化 分 析 ” 
等 关键 词 均 表达 出 内 容 随时 间 变 化 的 含义 ， 结 
合 文献 内 容 ， 归 纳 该 方向 下 的 主要 研究 内 容 为 
公共 政策 主题 演化 研究 。 余 传 明 等 … Ges A k 


共 政策 文本 分 析 中 研究 内 容 分 布 ( 国内 数据 ) 


和 抽取 词 时 间 戳 的 TOT 主题 时 间 模 型 ， 得 出 农 
村 电 商 扶贫 政策 的 时 间 - 主题 概率 分 布 以 及 主 
题 - 词汇 概率 分 布 ， 分 析 农 村 电 商 扶贫 政策 内 
容 演化 情况 ; BE O 以 气候 相关 政策 文本 为 
研究 对 象 ， 基 于 及 语言 改进 LDA 主题 模型 ， 
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开展 政策 文本 主题 内 容 及 主题 强度 演化 趋势 分 
Drs 张 永安 等 O 收集 国家 、 北 京 、 中 关 村 三 级 
技术 创新 政策 , 运用 LDA 主题 模型 识别 主题 ， 
为 技术 创新 政策 的 完善 提出 相关 建议 ; BSC 
Oe) 开展 不 同 地 区 政策 主题 并 与 中 央 政 府 职能 匹 
配 研 究 ， 得 出 地 方 政 府 存 在 行政 职能 弱化 和 职 


agendes 


蓝 色 关键 词 代 表 方 向 1， 根 据 “latent 
dirichlet allocation” “policy” “trend” “foresig 
ht” 等 主题 词 ， 结 合 文献 内 容 将 该 方向 归纳 为 公 
共 政 策 主题 演化 研究 。 该 研究 方向 与 国内 研究 
方向 2 类 似 ， 均 是 利用 主题 模型 分 析 公 共 政 策 
内 容 随时 间 的 变化 。 如 2019 年 A. Mark 等 上 以 
生态 领域 为 例 , 采 用 LDA 模 型 HDP( Hierarchical 
Dirichlet Process ) 和 TF-IDF 分 析 ， 对 美国 政府 
文件 进行 主题 分 析 。Q. Wen 等 局 收集 桥梁 管理 

(BM ) 相关 的 政策 法 规 作为 数据 集 , 采用 作者 - 
主题 模型 ( ATM ) 文本 挖掘 的 方法 识别 政策 中 
的 关键 主题 。 

绿色 关键 词 代 表 方 向 2， 根 据 “topic model 

ing” “management” “performance” “need” 


等 关键 词 ， 结 合 文献 具体 内 容 归 纳 该 方向 为 公 
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能 供给 结构 性 不 足 等 问题 。 
4.2 国际 研究 内 容 分 析 

将 国际 数据 导入 Vosviewer 分 析 软 件 ， 对 关 
键 词 进 行 手工 筛选 后 ， 最 小 聚 类 大 小 设 为 30， 
得 到 国际 主题 模型 在 公共 政策 文本 中 应 用 方向 ， 
如 图 7 所 示 : 


图 7 主题 模型 在 公共 政策 文本 分 析 中 研究 内 容 分 布 ( 国际 数据 ) 


共 政 策 文 本 组 织 与 管理 研究 。 该 方向 主要 研究 
内 容 与 国内 研究 方向 1 相似 ， 均 是 利用 主题 模 
型 分 析 实 现 大 规模 公共 政策 内 容 高 效 的 组 织 管 
理 ， 以 期 实现 公共 政策 内 容 的 妥善 保存 和 便捷 
利用 。 如 C. Lucas 等 所 采用 结构 化 主题 模型 实 
现 政 策 文 本 的 自动 化 分 析 ， 便于 随时 把 握 政策 
最 新 进展 ; J. B. Ruhl SE O 将 研究 对 象 集中 在 法 
律 文件 ， 利 用 LDA 主题 模型 实现 法 律 文件 实质 
性 的 主题 分 类 ， 并 且 比 较 了 传统 方法 与 主题 建 
模 方法 的 优 缺 点 。 
红色 关键 词 代表 方向 3， 根 据 
“text” “impact” “policy” “topic model” 等 
关键 词 ， 结 合 文献 具体 内 容 将 该 方向 内 容 归 纳 
为 利用 主题 模型 开展 政策 影响 研究 。 该 研究 方 
向 目前 国内 鲜 有 学 者 涉及 。 该 主题 既 包 括 政策 
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实施 带 来 的 影响 ， 也 包括 其 他 因素 对 政策 产生 
影响 。 如 H. S. Du 等 趾 采 用 LDA 模型 对 中 国 
各 省 环保 部 门 官网 的 环境 政策 数据 开展 文本 挖 
据 ， 检 验 绿色 投资 的 空间 特征 以 及 政治 、 经 济 
和 环境 因素 的 洪 出 效应 ; A. Ceron 等 中 采用 结 
构 主题 模型 来 分 析 74 份 议案 、1 439 份 演 讲 和 9 
份 大 会 宣言 中 包含 的 内 容 ， 以 评估 派系 动议 或 
个 别 演讲 是 否 对 政党 宣言 中 的 内 容 产生 了 影响 。 

此 外 ， 通 过 逐 篇 回顾 国际 文献 内 容 ， 发 现 
个 别 英文 文献 难以 划分 到 具体 的 研究 方向 中 ， 
通过 阅读 文献 归纳 其 主要 内 容 涉及 不 同 区 域 政 
策 内 容 比 较 、 项 目 评价 等 。H. Ale 等 所 应 用 结 
构 主 题 模型 ( Structural Topic Modelling, STM ) 
分 析 147 个 国家 有 关 全 球 气候 治理 研究 的 政策 ， 
比较 发 展 中 国家 和 发 达 国 家 关于 全 球 气候 治理 
关注 的 关键 主题 ; K. Isoaho 等 5 对 欧盟 5 000 
多 个 政策 文件 进行 主题 建 模 分 析 ， 来 证 实 能 源 
联盟 (Energy Union ) 项 目的 政策 优先 级 。 
4.3 国际 与 国内 研究 内 容 对 比分 析 

笔者 总 结 国际 与 国内 主题 模型 在 公共 政策 
文本 中 应 用 主要 存在 以 下 几 点 不 同 : 

首先 ， 从 研究 内 容 范 围 来 看 ， 国 际 学 者 将 
主题 模型 应 用 在 公共 政策 文本 中 的 范围 更 广 ， 
尝试 利用 新 方法 解决 更 多 的 传统 问题 。 国 内 学 
者 研究 的 主题 主要 集中 在 公共 政策 主题 演化 研 
究 和 公共 政策 文本 组 织 与 管理 研究 ， 而 国外 研 
究 除了 以 上 两 个 研究 方向 ， 还 尝试 将 主题 模型 
应 用 在 公共 政策 影响 、 不 同 区 域 政 策 内 容 比较 、 
项 目 评价 等 相关 研究 。 
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关 人 研究， 试图 利用 大 规模 文本 分 析 弥 补 以 往 政 
策 影 响 难以 定量 化 评估 的 缺陷 。 而 国内 学 者 将 
主要 科研 精力 放 在 了 公共 政策 内 容 演 化 与 公共 
政策 文本 组 织 管理 研究 ， 倾 向 于 使 用 自动 化 的 
方法 应 对 公共 政策 文本 量 剧 增 带 来 的 公共 政策 
内 容 精 炼 与 政策 文本 管理 问题 ， 偏 重 于 公共 政 
策 文本 本 身 而 忽略 了 与 其 他 文本 相 结合 。 

笔者 尝试 从 更 深层 角度 分 析 国 际 与 国内 人 研 
究 内 容 出 现 差异 的 原因 ， 主 要 有 以 下 3 点 : 

首先 ， 国 内 研究 虽 重 视 程度 日 益 增 加 ， 但 
缺乏 系统 综述 。 在 本 文 之 前 ， 国 内 尚未 有 综述 
性 文章 总 结 国外 目前 主题 模型 在 政策 文本 中 的 
应 用 现状 ,这 不 利于 国内 学 者 学 习 和 借鉴 国外 
相关 研究 方向 和 研究 成 果 ， 因 此 才 会 造成 国内 
研究 方向 较为 局 限 的 现状 。 

其 次 ， 国 内 学 者 学 科 背 景 较为 单一 。 国 内 
主要 是 图 书 情报 领域 研究 学 者 应 用 主题 模型 分 
析 政 策 文本 ， 并 发 表 在 图 情 领域 期 刊 。 而 国际 
包含 了 政策 领域 、 图 情 领 域 、 资 源 环境 领域 等 
多 领域 学 者 ， 多 发 表 在 政策 研究 期 刊 。 学 科 的 
单一 限制 了 思维 的 扩展 ， 国 内 图 情 领 域 的 学 者 
更 希望 主题 模型 在 分 析 政 策 文 本 过 程 中 可 以 解 
决 图 情 领 域 传统 问题 ， 而 国际 上 不 同 领域 的 学 
者 面临 的 问题 不 同 ， 因 此 更 愿意 尝试 从 不 同 的 
角度 应 用 主题 模型 ， 这 也 进一步 解释 了 国内 研 
究 内 容 近 几 年 一 直 没 有 太 多 应 用 方向 上 的 创新 
而 国际 研究 方向 逐渐 多 样 。 

最 后 ， 与 国际 相 比 国内 机 构 间 合作 少 。 合 
作 更 容易 碰撞 出 思想 的 火花 。 与 国内 研究 相 比 ， 


其 次 ， 从 研究 内 容 时 间 来 看 ， 近 两 年 国际 
学 者 研究 主要 集中 在 利用 主题 模型 解决 公共 政 
策 影 响 评估 和 公共 政策 内 容 演 化 问题 ， 较 少 关 
注 到 公共 政策 文本 组 织 与 管理 研究 ， 而 国内 学 
者 自 开 始 尝 试 将 主题 模型 应 用 到 政策 文本 中 ， 
应 用 方向 过 多 局 限 在 解决 公共 政策 文本 组 织 三 
管理 问题 以 及 政策 内 容 演化 问题 ， 鲜 有 学 者 尝 
试 拓展 。 

最 后 ， 从 研究 内 容重 视 度 来 看 ， 国 际 学 者 
最 重视 的 是 利用 主题 模型 开展 公共 政策 影响 相 


国际 研究 机 构 间 合作 更 加 紧密 ， 更 容易 产生 新 
思路 与 新 方法 ， 产 生 更 多 新 思路 与 新 方法 。 因 
此 ， 在 将 主题 模型 应 用 在 政策 文本 分 析 时 ， 国 
际 学 者 关注 的 不 仅仅 是 政策 文本 自身 ， 而 是 学 
试 与 其 他 文本 相 结合 ， 探 索 政策 文本 与 其 他 文 
本 之 间 的 关系 。 而 目前 国内 合作 范围 较为 狭窄 ， 
不 利于 国内 学 者 进一步 拓宽 研究 视野 ， 这 也 在 
一 定 程度 上 解释 了 国内 学 者 始终 将 研究 定位 于 
政策 文本 本 身 而 国际 学 者 在 多 源 文本 对 比 中 开 
拓 了 新 研究 方向 。 
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四 问题 与 展望 


5.1 现 有 研究 存在 的 问题 

笔者 认为 国内 外 公共 政策 文本 分 析 中 主题 
模型 应 用 局 限 性 主要 表现 研究 方法 和 研究 内 容 
两 个 层面 。 

首先 ， 在 研究 方法 上 ， 目 前 应 用 最 广泛 的 
LDA 主题 模型 本 身 就 存在 一 定 的 缺陷 ， 如 最 优 
主题 数量 一 般 依据 经 验 设 定 或 者 使 用 计算 复 
杂 度 较 高 困惑 度 来 确定 "， 前 者 强烈 依赖 人 工 
经 验 ， 后 者 则 需要 较 高 的 计算 时 间 成 本 ; 主题 
由 主题 词 表征 ， 语 义 揭示 性 不 强 ， 可 解释 性 不 
够 中 ;只 能 表征 文档 - 主题 、 主 题 - 主题 词 纵 
向 关系 ， 无 法 利用 主题 模型 揭示 主题 和 主题 之 
间 的 横向 关系 等 中。LDA 虽然 适用 于 大 规模 文 
本 分 析 ， 但 其 自 有 的 缺陷 将 严重 阻碍 在 政策 文 
本 中 的 广泛 应 用 。 此 外 ， 目 前 已 有 学 者 已 经 意 
识 到 LDA 主题 模型 的 缺陷 ， 并 尝试 使 用 改进 过 
的 主题 模型 ( 如 Time Dynamic Topic Models, 
ATM, TOT, STM) 等 分 析 政 策 文 本 ， 但 目前 
使 用 的 主题 模型 改进 多 是 基于 论文 或 专利 文本 ， 
鲜 有 学 者 根据 公共 政策 文本 的 具体 特征 进一步 
改进 主题 模型 ， 主 题 的 可 解释 性 仍 有 很 大 提升 
空间 。 

此 外 , 在 研究 内 容 上 , 相 比 于 论文 的 摘要 、 
关键 词 等 结构 化 表示 ， 政 策 文 本 结构 性 较 差 ， 
现 有 研究 主要 针对 政策 文本 的 全 部 内 容 ， 而 公 
共 政 策 包 含 政 策 目 标 、 政 策 工 具 、 政 策 效果 、 
政策 主体 、 政 策 对 象 等 诸多 要 素 ， 使 用 主题 模 
型 识别 出 的 政策 主题 只 能 在 整体 层面 表示 政策 
的 主要 内 容 及 变化 ， 无 法 深入 细致 到 某 一 类 政 
策 要 素 ， 研 究 缺 乏 针对 性 。 

除了 以 上 两 点 共性 问题 ， 国 内 研究 还 存在 
研究 思维 固化 、 合 作 缺 乏 、 领 域 单一 等 局 限 。 
首先 ， 虽 然 国内 学 者 紧 跟 国际 步伐 将 主题 模型 
应 用 在 政策 文本 分 析 中 ， 但 研究 中 心 始 终 定位 
于 公共 政策 文本 自身 ， 忽 略 了 与 其 他 文本 相 结 
合 的 新 思路 ; 其 次 ， 机 构 间 合作 较 少 ， 不 利于 
碰撞 出 新 的 思维 火花 ; 最 后 ， 参 与 研究 人 员 学 
科 背 景 较为 单一 ， 限 制 了 思维 的 扩展 。 
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5.2 未 来 展望 

主题 模型 在 政策 文本 中 的 应 用 仅仅 是 一 个 
尝试 性 的 开始 ， 具 有 广阔 的 发 展 空间 。 针 对 上 
述 目前 研究 存在 的 共性 问题 ， 笔 者 认为 可 以 从 
以 下 两 点 进行 改进 : 

首先 ， 针 对 研究 方法 上 的 局 限 性 ， 需 要 研 
究 人 员 从 公共 政策 文本 特性 出 发 ， 在 借鉴 以 往 
对 主题 模型 改进 思路 与 方法 基础 上 ， 堂 试 对 主 
题 模 型 进行 改进 。 政 策 文 本 除了 具备 文本 词 项 
高 维 性 、 主 题 复杂 性 和 长 文本 特征 之 外 ， 结 构 
性 相 比 于 传统 分 析 文 本 更 差 ， 同 时 也 不 具备 技 
术 词 、 专 业 术 语 等 代表 性 词语 ， 不 同 种 类 的 政 
策 文本 表达 方式 也 相对 多 样 化 ， 以 上 特点 均 要 
求 应 用 在 政策 文本 中 的 主题 模型 应 具备 更 高 的 
可 解释 性 和 可 理解 性 。 

针对 研究 内 容 上 的 局 限 性 ， 为 进一步 满足 
科研 人 员 和 决策 者 对 政策 内 容 的 分 析 需 求 ， 未 
来 主题 模型 在 公共 政策 文本 中 的 应 用 应 更 加 精 
细 化 ， 考 虑 聚焦 于 政策 文本 中 的 单一 要 素 ， 实 
现 细 粒度 信息 需求 的 满足 ， 如 政策 工具 作为 保 
障 政策 目标 顺利 实现 的 重要 手段 ， 政 策 工 具 的 
演化 分 析 对 于 政策 制定 者 和 科学 研究 者 来 说 意 
义 重 大 , 目前 绝 大 多 数 研 究 均 采用 内 容 分 析 法 ， 
需要 依靠 人 工 编 码 ， 吸 需 实现 政策 工具 要 素 的 
自动 抽取 与 内 容 分 析 。 此 外 ， 随 着 文本 挖掘 技 
术 的 不 断 改 进 和 主题 模型 可 解释 性 的 不 断 提升 ， 
可 考虑 进一步 扩展 研究 范围 ， 尝 试 应 用 主题 模 
型 解决 更 多 政策 领域 存在 的 研究 问题 。 

此 外 ， 针 对 国内 研究 存在 的 问题 ， 除 了 需 
要 改进 以 上 两 点 ， 还 需 在 重视 程度 、 研 究 范围 、 
研究 深度 、 合 作 方 式 等 方面 做 出 努力 。 首 先 ， 
增加 主题 模型 在 文本 分 析 领 域 的 重视 程度 ， 密 
切 跟 踊 国 际 最 新 应 用 动态 ， 总 结 国际 经 验 ， 争 
取 密 切 跟 进 国际 研究 步伐 ; 其 次 ， 积 极 扩展 研 
究 思路 ， 考 虑 政策 文本 与 其 他 文本 相 结合 ， 在 
解决 传统 问题 的 基础 上 , 争取 有 新 发 现 ; 最 后 ， 
加 强 机 构 间 和 国际 间 合 作 ， 除 了 加 强 同 领域 机 
构 间 的 合作 ， 还 需要 加 强 跨 领域 合作 ， 融 合 不 
同学 科 的 思路 ， 尝 试 解决 不 同学 科 的 问题 ， 还 
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可 以 积极 与 国际 其 他 研究 机 构 合 作 ， 进 一 步 融 
入 国际 科研 轿 ， 共 同 探索 主题 模型 在 公共 政策 
文本 分 析 中 的 更 多 可 能 性 。 


@ 结 语 


本 研究 通过 梳理 国内 外 公共 政策 文本 分 析 
中 主题 模型 的 应 用 研究 现状 ， 得 出 目前 国内 和 
国际 研究 者 都 在 积极 尝试 在 公共 政策 文本 分 析 
中 使 用 主题 模型 ， 但 在 合作 方式 、 期 刊 分 布 领 
域 、 人 研究 方向 等 方面 仍 存 在 较 大 差异 。 首 先 ， 
在 合作 方式 方面 ， 国 际 上 发 表 的 相关 文献 更 倾 
向 于 多 个 机 构 共 同 合 作 ， 而 国内 更 倾向 于 单一 
机 构 内 的 学 者 展开 合作 ; 其 次 ， 在 发 表 期 刊 分 
布 领域 方面 ， 国 际 研究 发 文 期 刊 主要 集中 在 政 
策 研 究 领域 的 期 刊 ， 而 国内 研究 主要 集中 发 表 
在 情报 学 领域 的 期 刊 ; 最 后 , 在 人 研究 方向 方面 ， 
国际 学 者 关注 研究 方向 更 加 广泛 ， 积 极 尝试 使 
用 新 方法 解决 多 种 研究 问题 ， 且 随时 间 推 移 ， 
近 几 年 国外 应 用 方向 更 加 分 散 ， 而 国内 学 者 研 
究 方 向 相对 固化 ， 研 究 思维 不 够 发 散 ， 忽 略 了 
政策 文本 与 其 他 文本 的 结合 。 目 前 ， 国 内 外 公 
共 政 策 文本 分 析 中 主题 模型 应 用 在 研究 方法 和 
研究 内 容 上 均 存 在 一 定局 限 性 ， 但 毫 无 疑问 未 
来 大 规模 公共 政策 文本 的 分 析 将 更 加 依赖 于 主 
题 模型 等 深入 语义 的 文本 挖掘 算法 ， 具 有 广阔 
的 发 展 空间 。 未 来 需要 有 针对 性 地 提升 主题 模 
型 对 公共 政策 文本 的 适用 性 ， 拓 展 研 究 深度 与 
广度 ， 提 高 分 析 效 率 和 分 析 结 果 的 可 解释 性 ， 
为 政策 研究 提供 有 力 文 撑 。 
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Abstract: [Purpose/significance] This paper comprehensively summarizes the application of topic 
models in public policy texts, which helps researchers learn from existing research results and provides 
theoretical and practical support for future development. [Method/process] This paper used bibliometric 
analysis to study from the perspectives of time trend, organization distribution, periodical distribution, etc., 
and summarized the application status in detail. Secondly, the LDA topic model was used to identify the 
main international and domestic research directions and conducted a comparative analysis. Finally, this 
paper summarized the problems in the application and proposed future prospects. [Result/conclusion] The 
application of topic models in the analysis of public policy texts is on the rise overall and has broad prospects. 
The starting time of domestic and foreign research is equivalent, but domestic research needs to be improved 
in terms of research scope, research depth, cooperation methods, and research methods. In addition, in the 
future development, there are problems with the applicability of the topic model’s own methods and the 
granularity of research content. It is necessary to further combine the characteristics of public policy texts to 
improve the topic model and refine research efforts. 
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